6月9日,为期两天的“北京智源大会”在中关村国家自主创新示范区会议中心成功开幕。科技部副部长吴朝晖和北京市副市长于英杰出席开幕式并致辞。
北京智源大会是智源研究院主办的年度国际性人工智能高端专业交流活动,定位于“AI内行顶级盛会”,以“国际视野、技术前沿、思想激荡、洞见未来”为特色,已连续举办5届。今年,大会邀请到了图灵奖得主Geoffrey Hinton、Yann LeCun、Joseph Sifakis和姚期智,张钹、郑南宁、谢晓亮、张宏江、张亚勤等院士,加州大学伯克利分校人工智能系统中心创始人Stuart Russell,麻省理工学院未来生命研究所创始人Max Tegmark,OpenAI首席执行官Sam Altman等200余位人工智能顶尖专家参会,嘉宾将以国际视角探讨通用人工智能发展面临的机遇与挑战。
开幕式由智源研究院理事长张宏江主持。
智源研究院院长黄铁军发布《2023智源研究院进展报告》,并发布了全面开源的“悟道3.0”系列大模型及算法,报告了在高精度生命模拟和有机大分子建模方面的最新进展。
成果发布方面,继2021年悟道大模型项目连创“中国首个+世界最大”纪录之后,智源 “悟道3.0 ”进入全面开源新阶段,带来一系列领先成果:“悟道·天鹰”(Aquila)语言大模型系列、天秤(FlagEval)开源大模型评测体系与开放平台,“悟道 · 视界”视觉大模型系列,以及一系列多模态模型成果。
智源大模型系列全面开源
发布语言、视觉、多模态等领先成果
智源研究院是国内最早进行大模型研究的科研机构之一,自2020年10月启动大模型研发工作,发展至今已实现了多个率先:
l 率先汇集顶尖 AI 学者,「智源学者」开启大模型立项探索
l 率先组建大模型研究团队,成为日后中国大模型研究主力
l 率先预见「人工智能大模型时代到来」
l 率先发布「悟道」大模型项目,连创「中国首个+世界最大」纪录
l 率先开启大模型测评旗舰项目,助力大模型研究发展
l 率先倡导大模型开源开放,发布 FlagOpen 大模型技术开源系统
l 率先构建大模型学术生态,智源大会+智源社区成为大模型研讨高点阵地
据黄铁军介绍,在2021年3月,悟道1.0发布会上,智源研判人工智能已经从“大炼模型”转变为“炼大模型”的新阶段,从此,“大模型”这个概念进入公众视野。
至于何为大模型?他认为需要具备三个条件:一是规模要大,参数达百亿规模以上;二是涌现性,能够产生预料之外的新能力;三是通用性,不限于专门问题或领域,能够处理多种不同的任务。
悟道系列模型已发展到“悟道3.0”版本,涵盖语言、视觉、多模态等基础大模型,现在已全面开源。
1. “悟道·视界”视觉大模型系列,实现六项国际领先技术突破,点亮通用视觉曙光。
“悟道·视界”系统化解决了当前计算机视觉领域的一系列瓶颈问题,包括任务统一、模型规模化以及数据效率等,包括:
l 在多模态序列中补全一切的多模态大模型 Emu
l 最强十亿级视觉基础模型 EVA
l 一通百通、分割一切的视界通用分割模型
l 首创上下文图像学习技术路径的通用视觉模型Painter
l 性能最强开源CLIP模型 EVA-CLIP
l 简单prompt(提示)即可视频编辑的 vid2vid-zero 零样本视频编辑技术
多模态大模型 Emu接受多模态输入、产生多模态输出。通过学习图文、交错图文、交错视频文本等海量多模态序列,实现在图像、文本和视频等不同模态间的理解、推理和生成。训练完成后,Emu 能在多模态序列的上下文中补全一切,实现多轮图文对话、视频理解、精准图像认知、文图生成、多模态上下文学习、视频问答和图图生成等多模态能力。
EVA为当前最强十亿级视觉基础模型,通过将语义学习和几何结构学习这两大解决视觉问题的关键点进行结合,让视觉模型的通用性更强,目前EVA在ImageNet分类、COCO检测分割、Kinetics视频分类等广泛的视觉感知任务中取得当时最强性能。
多模态图文预训练大模型EVA-CLIP是当前性能最强的开源CLIP模型。EVA-CLIP基于视觉基础模型EVA研发,去年发布的EVA-CLIP 1B 版本,今年才被Meta在5月份刚发布的DINOv2模型追平。在今年年初发布的EVA-CLIP 5B版本创造了零样本学习性能新高度,超越此前最强的OpenCLIP模型,在ImageNet 1K数据集上零样本达到最高82%的准确率。
Painter通用视觉模型首创「上下文图像学习」技术路径,图像理解图像、图像解释图像,图像输出图像:将自然语言处理中的上下文学习概念引入视觉模型,首创“上下文图像学习”技术路径,将“以视觉为中心”作为建模核心思想。目前Painter模型可完成7种主流视觉任务,性能相比国际同类模型具有11%-25%的性能提升。
一通百通,分割一切的视界通用分割模型,是首个利用视觉提示(prompt)完成任意分割任务的通用视觉模型,一通百通、分割一切。从影像中分割出各种各样的对象,是视觉智能的关键里程碑。今年年初,智源视界分割模型与Meta 的 SAM 模型同时发布,点亮通用视觉曙光。
简单prompt(提示)即可视频编辑的 vid2vid-zero 零样本视频编辑技术,首次在无需额外视频训练的情况下,利用注意力机制动态运算的特点,结合现有图像扩散模型,实现可指定属性的视频编辑。
2. 悟道·天鹰(Aquila)语言大模型系列+天秤(FlagEval)评测体系,打造大模型能力与评测标准双标杆
为推动大模型在产业落地和技术创新,智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果,打造“大模型进化流水线”,持续迭代、持续开源开放。
“悟道·天鹰(Aquila)”开源商用许可语言大模型系列
悟道·天鹰Aquila 语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。
原标题:【2023北京智源大会开幕“悟道3.0”大模型发布,顶级专家共话通用人工智能发展】 内容摘要:6月9日,为期两天的“北京智源大会”在中关村国家自主创新示范区会议中心成功开幕。科技部副部长吴朝晖和北京市副市长于英杰出席开幕式并致辞。 北京智源大会是智源研究院主办的年度 ... 文章网址:https://www.doukela.com/keji/234704.html; 免责声明:抖客网转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。 |